Frisch-Waugh-Lovell Theorem

分块回归

考虑回归模型

Y=X1β^1+X2β^2+e

根据参数估计量的定义可得

XTXβ^=XTY[X1TX1X2TX2X2TX1X2TX2][β^1β^2]=[X1TYX2TY]

因此有

(1)X1TX1β^1+X2TX2β^2=X1TY(2)X2TX1β^1+X2TX2β^2=X2TY

(1) 可得

β^1=(X1TX1)1X1(YX2β^2)

代入 (2) 可得

X2TX1(X1TX1)1X1(YX2β^2)+X2TX2β^2=X2TYX2TP1YX2TP1X2β^2+X2TX2β^2=X2TYX2TP1Y+X2T(IP1)X2β^2=X2TYX2TM1X2β^2=X2TM1Y

类似地可以得出 β^1,最终解得

{β^1=(X1TM2X1)1(X1TM2Y)β^2=(X2TM1X2)1(X2TM1Y)

由于消除矩阵是对称幂等的,所以 β^1 可以看作 M2YM2X1 回归得到的参数估计量;类似地, β^2 可以看作 M1YM1X2 回归得到的参数估计量。其中

{M1=InX1(X1TX1)1X1TM2=InX2(X2TX2)1X2T

从几何的角度, M 给出向量到 span(X) 的距离向量;Mj 给出向量到 Xj 的距离向量;从信息量的角度,Mj 消去了 Xj 的信息。

特别地,如果 X1X2 不相关,即 X1TX2=0M2X1=X1,此时

β^1=(X1TX1)1(X1TY)

说明 YX1X2 回归和 Y 单独对 X1 回归得到的系数一致;换言之,加入和解释变量不相关的变量不影响该变量的回归系数。

Frisch-Waugh-Lovell Theorem

要获得 β^i,可以依据以下步骤:

  1. YXi 回归,获得残差 Y~
  2. XiXi 回归,获得残差 X~i
  3. Y~X~i 回归,获得残差 e
  4. X~i 的回归系数恰为 β^i

本质上,这就是令 MiYMiXi 回归得到回归系数 β^i,其中 Mi 表示在 X 中去除分块 Xi 得到的矩阵对应的消除矩阵。

Note

由于 M 是幂等矩阵,实际上 MiYMiX 回归和 YMiX 回归是等价的。因此第一步其实可以略去。

应用:中心化

若模型包含常数项,则 1nspan(X),定义

P0=1n(1nT1n)11nTM0=InP0=In1n(1nT1n)11nT

考虑 P0 的定义,(1nT1n)1=1n1n1nT 是一个所有元素全为 1 的 n×n 矩阵,后者右乘任意 n×1 的列向量都得到所有元素都为 n 维求和值列向量,再乘 1n 就得到 n 维平均值列向量;类似地,右乘任意 n×k 的矩阵就得到 n×k 的平均值矩阵(均值在列方向上取)

对于任意(可以相乘的)矩阵 Z,有

P0Z=Z¯M0Z=ZZ¯

在上述模型中,设 X1 为常数项 X2=Xs 为斜率项,则斜率项系数

β^s=[(M0Xs)T(M0Xs)]1[(M0Xs)T(M0Y)]=[(XsX¯s)T(XsX¯s)]1[(XsX¯s)T(YY¯)]

或者更简单地写为

β^s=Cov^(Xs,Y)Var^(Xs)

相应地,在单变量回归中,斜率项系数的估计值为:

β^s=(XiX¯)(YiY¯)(XiX¯)2